在基于模型的强化学习中,代理可以利用学习的模型来改善其行为方式。两种普遍的方法是决策时间计划和背景计划。在这项研究中,我们有兴趣了解在什么条件下以及在哪种情况下,这两种计划样式之一的性能将比需要快速响应的域中的其他域名更好。在通过动态编程的视角查看它们之后,我们首先考虑了这些计划样式的经典实例,并提供了理论结果和假设,在纯计划,计划和学习以及转移学习设置中,他们的表现更好。然后,我们考虑了这些计划样式的现代实例,并提供了在最后两个考虑的设置中表现更好的假设。最后,我们执行几个说明性实验,以验证我们的理论结果和假设。总体而言,我们的发现表明,即使决策时间计划在其经典实例中的表现不如其现代实例化,但在计划和学习和转移学习环境中,它的表现也比背景计划更好或更好。
translated by 谷歌翻译
我们研究了学习一系列良好政策的问题,使得当结合在一起时,他们可以解决各种各样的不良加强学习任务,没有或很少的新数据。具体而言,我们考虑广义政策评估和改进的框架,其中假设所有感兴趣任务的奖励被认为是固定的一组特征的线性组合。理论上,我们在理论上显示,在某些假设下,可以访问我们称之为一组独立策略的特定的各种策略,可以易于瞬间实现高级性能,这些任务通常比那些更复杂的所有可能的下游任务经过培训的代理人。基于这一理论分析,我们提出了一种简单的算法,可以迭代构建这套策略。除了经验验证我们的理论结果外,我们还将我们的方法与最近提出的各种政策集施工方法进行了比较,并表明其他人失败,我们的方法能够建立一种行为基础,使能够瞬间转移到所有可能的下游任务。我们还经验展示了访问一组独立策略,可以更好地引导在下游任务上的学习过程,其中新奖励功能不能被描述为特征的线性组合。最后,我们证明了这一政策组可以在逼真的终身加强学习环境中有用。
translated by 谷歌翻译
Adversarial training has been empirically shown to be more prone to overfitting than standard training. The exact underlying reasons still need to be fully understood. In this paper, we identify one cause of overfitting related to current practices of generating adversarial samples from misclassified samples. To address this, we propose an alternative approach that leverages the misclassified samples to mitigate the overfitting problem. We show that our approach achieves better generalization while having comparable robustness to state-of-the-art adversarial training methods on a wide range of computer vision, natural language processing, and tabular tasks.
translated by 谷歌翻译
Adversarial training is widely acknowledged as the most effective defense against adversarial attacks. However, it is also well established that achieving both robustness and generalization in adversarially trained models involves a trade-off. The goal of this work is to provide an in depth comparison of different approaches for adversarial training in language models. Specifically, we study the effect of pre-training data augmentation as well as training time input perturbations vs. embedding space perturbations on the robustness and generalization of BERT-like language models. Our findings suggest that better robustness can be achieved by pre-training data augmentation or by training with input space perturbation. However, training with embedding space perturbation significantly improves generalization. A linguistic correlation analysis of neurons of the learned models reveal that the improved generalization is due to `more specialized' neurons. To the best of our knowledge, this is the first work to carry out a deep qualitative analysis of different methods of generating adversarial examples in adversarial training of language models.
translated by 谷歌翻译
In this paper, we increase the availability and integration of devices in the learning process to enhance the convergence of federated learning (FL) models. To address the issue of having all the data in one location, federated learning, which maintains the ability to learn over decentralized data sets, combines privacy and technology. Until the model converges, the server combines the updated weights obtained from each dataset over a number of rounds. The majority of the literature suggested client selection techniques to accelerate convergence and boost accuracy. However, none of the existing proposals have focused on the flexibility to deploy and select clients as needed, wherever and whenever that may be. Due to the extremely dynamic surroundings, some devices are actually not available to serve as clients in FL, which affects the availability of data for learning and the applicability of the existing solution for client selection. In this paper, we address the aforementioned limitations by introducing an On-Demand-FL, a client deployment approach for FL, offering more volume and heterogeneity of data in the learning process. We make use of the containerization technology such as Docker to build efficient environments using IoT and mobile devices serving as volunteers. Furthermore, Kubernetes is used for orchestration. The Genetic algorithm (GA) is used to solve the multi-objective optimization problem due to its evolutionary strategy. The performed experiments using the Mobile Data Challenge (MDC) dataset and the Localfed framework illustrate the relevance of the proposed approach and the efficiency of the on-the-fly deployment of clients whenever and wherever needed with less discarded rounds and more available data.
translated by 谷歌翻译
我们通过查看在弥漫表面上铸造的对象的阴影来研究个体的生物特征识别信息的问题。我们表明,通过最大似然分析,在代表性的情况下,阴影中的生物特征信息泄漏可以足够用于可靠的身份推断。然后,我们开发了一种基于学习的方法,该方法在实际设置中证明了这种现象,从而利用阴影中的微妙提示是泄漏的来源,而无需任何标记的真实数据。特别是,我们的方法依赖于构建由从每个身份的单个照片获得的3D面模型组成的合成场景。我们以完全无监督的方式将我们从合成数据中学到的知识转移到真实数据中。我们的模型能够很好地概括到真实的域,并且在场景中的几种变体都有坚固的范围。我们报告在具有未知几何形状和遮挡对象的场景中发生的身份分类任务中的高分类精度。
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
学习在未知环境中安全导航是监视和救援操作中使用的自动无人机的重要任务。近年来,已经提出了许多基于学习的同时定位和映射(SLAM)系统,这些系统依靠深神经网络(DNN)(DNNS)提出了用于传统功能描述符表现不佳的应用。但是,这种基于学习的SLAM系统依靠DNN功能编码在典型的深度学习环境中训练有素的离线训练。这使得它们不太适合在训练中未见的环境中部署的无人机,在训练中,持续适应至关重要。在本文中,我们提出了一种新的方法,可以通过调节低复杂性词典学习和稀疏编码(DLSC)管道,并使用新提出的二次贝叶斯惊喜(QBS)因素调节,以学习在未知环境中即时猛烈抨击。我们通过在充满挑战的仓库场景中通过无人机收集的数据来实验验证我们的方法,在这种情况下,大量模棱两可的场景使视觉上的歧义很难。
translated by 谷歌翻译
自从商业领域聊天机器人出现以来,它们已被广泛地在客户服务部门工作。通常,这些商业聊天机器人是基于检索的,因此他们无法响应提供的数据集中缺少的查询。相反,生成性聊天机器人尝试创建最合适的响应,但大多无法在客户机器人对话框中创建平稳的流程。由于客户在收到响应后仍有几乎没有选择的选择,因此对话框变得短缺。通过我们的工作,我们试图最大程度地提高简单的对话代理的智能,以便可以回答看不见的查询,并产生后续问题或备注。我们已经为一家珠宝店建造了聊天机器人,该聊天机器人通过找到与语料库中模式的输入相似,从而找到了客户查询的根本目标。我们的系统为客户提供了音频输入界面,因此他们可以用自然语言对其进行交谈。将音频转换为文本后,我们训练了模型来提取查询的意图,找到适当的响应并以自然的人类声音与客户交谈。为了衡量系统的性能,我们使用了召回,精度和F1分数等性能指标。
translated by 谷歌翻译
联合学习(FL)是一种分布式机器学习协议,允许一组代理在不共享其数据集的情况下协作培训模型。这使得FL特别适用于需要数据隐私的设置。然而,已经观察到FL的性能与局部数据分布的相似性密切相关。特别是,随着代理的数据分布差异,培训模型的准确性下降。在这项工作中,除了准确性之外,我们还会了解本地数据分布的变化如何影响训练型型号的公平性和稳健性。我们的实验结果表明,训练有素的模型表现出更高的偏差,并且随着本地数据分布的不同而变得更容易攻击。重要的是,公平性和鲁棒性的降级可以比准确性更严重。因此,我们揭示了对精确度影响的小变化仍然是重要的,如果培训的模型将部署在公平/安全性的关键上下文中。
translated by 谷歌翻译